import numpy as np
import re,jieba
from itertools import chain

def openfile(file_path):
    # 打开文件
    sentences_list = []
    # file_path = 'data/吴邦国重申：中国坚持和平发展道路不会因国力地位变化而改变_共产党员网.txt'
    fp = open(file_path, 'r', encoding="utf8")
    for line in fp.readlines():
        if line.strip():
            # 把元素按照[。！；？]进行分隔，得到句子。
            line_split = re.split(r'[。！；？]', line.strip())
            # [。！；？]这些符号也会划分出来，把它们去掉。
            line_split = [line.strip() for line in line_split if
                          line.strip() not in ['。', '！', '？', '；'] and len(line.strip()) > 1]
            sentences_list.append(line_split)
    sentences_list = list(chain.from_iterable(sentences_list))
    print("前10个句子为：\n")
    print(sentences_list[:10])
    print("句子总数：", len(sentences_list))
    return sentences_list